L’inertie par rapport à un point quantifie l’information perdue lorsque le jeu de données est résumé par ce point.
Quel est selon vous le point \(\boldsymbol{a}\) qui minimise l’inertie ?
\[argmax_{\boldsymbol{a}} I_{\boldsymbol{a}} = ??\]
BINGO !!!
Il s’agit du point \(\boldsymbol{g}=\boldsymbol{x_{\bullet}}=({x}_{\bullet}^1, \ldots, {x}_{\bullet}^p )^\top,\) avec \({x}_{\bullet}^k=\frac{1}{n} \sum_{i=1}^n x_{i}^k\), la valeur moyenne de la variable \(k\) sur l’ensemble des individus.
Puisque nous avons supposé que nos variables étaient centrées, \(G=O\) l’origine sur repère.
\[\forall \boldsymbol{a}\in\mathbb{R}^p,\; I_\boldsymbol{a}=I_\boldsymbol{g} + \lVert\boldsymbol{a}- \boldsymbol{g}\rVert^2.\]
Conséquence
Le meilleur résumé du nuage de points se résumant à un point est le barycentre du nuage de points, c’est à dire la moyenne sur chacune des dimensions.
\[I_{\boldsymbol{g}} =\frac{1}{n} \sum_{i=1}^n \left( \sum_{k=1}^p \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p \left( \frac{1}{n} \sum_{i=1}^n \left( x_{i}^k - x_{\bullet}^k \right)^2 \right) = \sum_{k=1}^p Var(\boldsymbol{x}^{k})\] Si les variables sont réduites
\[I = p\]